基于硬件的加速度是促进许多计算密集型数学操作的广泛尝试。本文提出了一个基于FPGA的体系结构来加速卷积操作 - 在许多卷积神经网络模型中出现的复杂且昂贵的计算步骤。我们将设计定为标准卷积操作,打算以边缘-AI解决方案启动产品。该项目的目的是产生一个可以一次处理卷积层的FPGA IP核心。系统开发人员可以使用Verilog HDL作为体系结构的主要设计语言来部署IP核心。实验结果表明,我们在简单的边缘计算FPGA板上合成的单个计算核心可以提供0.224 GOPS。当董事会充分利用时,可以实现4.48 GOP。
translated by 谷歌翻译
Robots have been brought to work close to humans in many scenarios. For coexistence and collaboration, robots should be safe and pleasant for humans to interact with. To this end, the robots could be both physically soft with multimodal sensing/perception, so that the robots could have better awareness of the surrounding environment, as well as to respond properly to humans' action/intention. This paper introduces a novel soft robotic link, named ProTac, that possesses multiple sensing modes: tactile and proximity sensing, based on computer vision and a functional material. These modalities come from a layered structure of a soft transparent silicon skin, a polymer dispersed liquid crystal (PDLC) film, and reflective markers. Here, the PDLC film can switch actively between the opaque and the transparent state, from which the tactile sensing and proximity sensing can be obtained by using cameras solely built inside the ProTac link. In this paper, inference algorithms for tactile proximity perception are introduced. Evaluation results of two sensing modalities demonstrated that, with a simple activation strategy, ProTac link could effectively perceive useful information from both approaching and in-contact obstacles. The proposed sensing device is expected to bring in ultimate solutions for design of robots with softness, whole-body and multimodal sensing, and safety control strategies.
translated by 谷歌翻译
尽管在过去的几年中取得了重大进展,但歧义仍然是面部表情识别(FER)的关键挑战。它可能导致嘈杂和不一致的注释,这阻碍了现实世界中深度学习模型的性能。在本文中,我们提出了一种新的不确定性标签分布学习方法,以提高深层模型的鲁棒性,以防止不确定性和歧义。我们利用价值空间中的邻里信息来适应培训训练样本的情绪分布。我们还考虑提供的标签将其纳入标签分布时的不确定性。我们的方法可以轻松地集成到深层网络中,以获得更多的培训监督并提高识别准确性。在各种嘈杂和模棱两可的环境下,在几个数据集上进行了密集的实验表明,我们的方法取得了竞争成果,并且超出了最新的最新方法。我们的代码和模型可在https://github.com/minhnhatvt/label-distribution-learning-fer-tf上找到。
translated by 谷歌翻译
本文报道的研究通过应用计算机视觉技术将普通的垃圾桶转化为更聪明的垃圾箱。在传感器和执行器设备的支持下,垃圾桶可以自动对垃圾进行分类。特别是,垃圾箱上的摄像头拍摄垃圾的照片,然后进行中央处理单元分析,并决定将垃圾桶放入哪个垃圾箱中。我们的垃圾箱系统的准确性达到90%。此外,我们的模型已连接到Internet,以更新垃圾箱状态以进行进一步管理。开发了用于管理垃圾箱的移动应用程序。
translated by 谷歌翻译
跨核心联合学习利用了几百个可靠的数据筒仓,并具有高速访问链接,共同训练模型。尽管这种方法成为联合学习中的流行环境,但设计出强大的拓扑以减少训练时间仍然是一个开放的问题。在本文中,我们提出了一种用于跨核心联合学习的新的多编码拓扑。我们首先使用覆盖图构造多式图。然后,我们将此多数分析为具有孤立节点的不同简单图。隔离节点的存在使我们能够执行模型聚合而无需等待其他节点,从而减少训练时间。我们进一步提出了一种新的分布式学习算法,以与我们的多编码拓扑一起使用。公共数据集的密集实验表明,与最近的最新拓扑相比,我们提出的方法大大减少了训练时间,同时确保收敛并保持模型的准确性。
translated by 谷歌翻译
在光场压缩中,基于图的编码功能强大,可以利用沿着不规则形状的信号冗余并获得良好的能量压实。然而,除了高度复杂性到处理高维图外,它们的图形构造方法对观点之间的差异信息的准确性非常敏感。在计算机软件生成的现实世界光场或合成光场中,由于渐晕效果和两种类型的光场视图之间的视图之间的巨大差异,将视差信息用于超射线投影可能会遭受不准确性。本文介绍了两种新型投影方案,导致差异信息的错误较小,其中一个投影方案还可以显着降低编码器和解码器的时间计算。实验结果表明,与原始投影方案和基于HEVC或基于JPEG PLENO的编码方法相比,使用这些建议可以大大增强超级像素的投影质量,以及率延伸性能。
translated by 谷歌翻译
我们研究了两种可能不同质量的度量之间的不平衡最佳运输(UOT),其中最多是$ n $组件,其中标准最佳运输(OT)的边际约束是通过kullback-leibler差异与正则化因子$ \ tau $放松的。尽管仅在文献中分析了具有复杂性$ o \ big(\ tfrac {\ tau n^2 \ log(n)} {\ varepsilon} \ log \ big(\ tfrac {\ log( n)} {{{\ varepsilon}} \ big)\ big)$)$用于实现错误$ \ varepsilon $,它们与某些深度学习模型和密集的输出运输计划不兼容,强烈阻碍了实用性。虽然被广泛用作计算现代深度学习应用中UOT的启发式方法,并且在稀疏的OT中表现出成功,但尚未正式研究用于UOT的梯度方法。为了填补这一空白,我们提出了一种基于梯度外推法(Gem-uot)的新颖算法,以找到$ \ varepsilon $ -Approximate解决方案,以解决$ o \ big中的UOT问题(\ kappa n^2 \ log \ log \ big(big) \ frac {\ tau n} {\ varepsilon} \ big)\ big)$,其中$ \ kappa $是条件号,具体取决于两个输入度量。我们的算法是通过优化平方$ \ ell_2 $ -norm UOT目标的新的双重配方设计的,从而填补了缺乏稀疏的UOT文献。最后,我们在运输计划和运输距离方面建立了UOT和OT之间近似误差的新颖表征。该结果阐明了一个新的主要瓶颈,该瓶颈被强大的OT文献忽略了:尽管OT放松了OT,因为UOT承认对离群值的稳健性,但计算出的UOT距离远离原始OT距离。我们通过基于Gem-uot从UOT中检索的原则方法来解决此类限制,并使用微调的$ \ tau $和后进程投影步骤来解决。关于合成和真实数据集的实验验证了我们的理论,并证明了我们的方法的良好性能。
translated by 谷歌翻译
随着近期智能手机或平板电脑的移动设备的爆炸性增长,保证了所有环境的一致网页外观已成为一个重大问题。这只是因为很难跟踪不同大小和渲染网页的设备类型的网络外观。因此,修复网页的不一致外观可能是困难的,并且所产生的成本可能是巨大的,例如,由于它的用户体验和财务损失差。最近,已经提出了自动化的Web修复技术来自动解决不一致的网页外观,专注于提高可用性。然而,生成的补丁倾向于破坏网页的布局,使修复的网页呈现美学令人难以释放,例如扭曲的图像或组件的未对准。在本文中,我们提出了一种基于Meta-heuristic算法的网页自动修复方法,可以保证可用性和美学。赋予我们方法的关键新颖性是一种新颖的健身功能,使我们能够乐观地发展错误的网页,以查找同时优化可用性和美学的最佳解决方案。实证评估表明,我们的方法能够在94%的评估科目中成功解决移动友好问题,在可用性和美学方面显着优于最先进的基线技术。
translated by 谷歌翻译
在本文中,我们提出了一种从3D骨架序列的两人交互的表示和分类的新方法。我们方法的关键思想是使用高斯分布来捕获关于对称正定(SPD)矩阵的r n的统计数据。主要挑战是如何参加这些分布。为此,我们基于LIE组和Riemannian对称空间理论,开发用于将高斯分布嵌入矩阵组中的方法。我们的方法依赖于基础歧管的黎曼几何形状,并且具有从3D关节位置编码高阶统计的优点。我们表明,该方法在三个基准测试中实现了三个基准的双人交互识别竞争结果。
translated by 谷歌翻译
他们早期阶段的脑转移(BM)的检测可能对癌症患者的结果产生积极影响。我们以前开发了一种在T1加权对比度增强3D磁共振图像(T1C)中检测小BM(直径小于15mm)的框架,以帮助医学专家在这次时间敏感和高赌注任务中。该框架利用使用标记的T1C数据训练的专用卷积神经网络(CNN),其中基本真理BM分段由放射科医师提供。本研究旨在通过嘈杂的基于学生的自我培训策略推进框架,以利用未标记的T1C数据的大语料库(即,没有BM分段或检测的数据)。因此,工作(1)描述了学生和教师CNN架构,(2)提出数据和模型通知机制,(3)在框架的学习BM检测灵敏度中介绍了一种新的伪标记策略分解。最后,它描述了利用这些组件的半监督学习策略。我们通过2倍交叉验证使用标记为217和1247个未标记的T1C考试进行验证。仅使用标记的考试的框架产生了9.23个假阳性90%BM检测灵敏度;然而,使用所引入的学习策略的框架导致了相同的灵敏度水平的假检测(即8.44)减少了〜9%。此外,虽然利用75%和50%标记数据集的实验导致算法性能降级(分别为12.19和13.89误),但随着基于嘈杂的学生的培训策略(分别为10.79和12.37误报),影响不太明显。
translated by 谷歌翻译